大規模言語 model (LLM)
大規模言語モデル - Wikipedia
大規模言語モデル(LLM)とは | IBM
ディープラーニング - Wikipedia
neural network
生成的人工知能 - Wikipedia
GPT (generative pre-trained transformer)
GPT (言語モデル) - Wikipedia
BERT (言語モデル) - Wikipedia
GitHub Copilot - Wikipedia
誤差逆傳播法 (逆傳播)
バックプロパゲーション - Wikipedia
自動微分 - Wikipedia#トップダウン型自動微分
確率的勾配降下法 - Wikipedia
最急降下法 - Wikipedia
Transformer
擴散 model (diffusion model)
拡散モデル - Wikipedia
Diffusion model - Wikipedia
DALL-E - Wikipedia
Sora (人工知能モデル) - Wikipedia
Stable Diffusion - Wikipedia
Midjourney - Wikipedia
NovelAI - Wikipedia
Nano Banana
擴散 Transformer (DiT)
擴散言語 model (diffusion LLM)
Transformer の decoder を高速化する
日本語LLMまとめ | LLM-jp
prompt engineering
私の初期 prompt
agentic workflow
MCP (model context protocol)
llms.txt
LangChainLangChain.icon
OpenTelemetryOpenTelemetry.icon
semconv
Semantic Conventions for Generative AI systems | OpenTelemetry
OpenLLMetry
Open-source Observability for LLMs with OpenTelemetry
traceloop/openllmetry: Open-source observability for your LLM application, based on OpenTelemetry
CosenseCosense.icon
infobox
Export for AI
/help-jp/Smart Context
調敎
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe “Training language models to follow instructions with human feedback” 2022/3/4
言語モデルの規模を大きくすることが、必ずしもユーザーの意圖をより正確に理解・反映することにつながるわけではない。例へば、大規模言語 model (LLM)は虛僞の情報を生成したり、有害な內容を含んだり、單にユーザーにとって有用でない出力を行ふ場合がある。言ひ換へれば、これらのモデルはユーザーの意圖と整合性が取れてゐないのである。本論文では、人閒からのフィードバックを用ゐたファインチューニングによって、幅廣いタスクにおいて言語モデルをユーザーの意圖に整合させる新たな手法を提案する。まず、ラベル作成者が作成したプロンプトと OpenAI API を通じて提出されたプロンプトのセットを出發點とし、望ましいモデル擧動を示すラベル作成者のデモンストレーションデータセットを蒐集する。このデータセットを用ゐて、敎師有り學習 (SL)による GPT-3 のファインチューニングを實施する。さらに、モデル出力のランキングデータセットを蒐集し、これを基に强化學習 (RL)と人閒からのフィードバックを組み合はせた手法でさらにファインチューニングを行ふ。このやうにして得られたモデルを「InstructGPT」と呼ぶ。我々のプロンプト分布における人閒評價實驗では、13 億パラメータの InstructGPT モデルの出力が、1750 億パラメータの GPT-3 モデルの出力よりも好まれるといふ結果が得られた。これは、パラメータ數が 100 分の 1 であるにもかかはらずである。さらに、InstructGPT モデルは眞實性の向上と有害な出力の生成減少を示しつつ、公開 NLP データセットにおける性能低下は最小限に抑へられてゐる。InstructGPT には依然として單純な誤りが見られるものの、本硏究の結果は、人閒からのフィードバックを用ゐたファインチューニングが言語モデルを人閒の意圖に整合させる有望な方向性であることを示してゐる。
RLHFとは| IBM
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan “Constitutional AI: Harmlessness from AI Feedback” 2022/12/15
AI システムの能力が向上するにつれ、我々はこれらのシステムを活用して他の AI を監督する役割を擔はせたいと考へてゐる。本硏究では、人閒による有害な出力のラベル附けを一切行はず、自己改善を通じて無害な AI アシスタントを訓練する手法を實驗的に檢證してゐる。人閒による監督はルールや原則のリストを通じてのみ行はれ、この手法を「憲法 AI」と稱してゐる。このプロセスには、敎師有り學習 (SL)フェーズと强化學習 (RL)フェーズの兩方が含まれる。敎師有り學習 (SL)フェーズでは、初期モデルからサンプルを抽出し、自己批評と修正を生成した後、修正された應答に基づいて元のモデルを微調整する。强化學習 (RL)フェーズでは、微調整濟みモデルからサンプルを抽出し、別のモデルを用ゐて 2 つのサンプルのうちどちらが優れてゐるかを評價し、この AI の選好データセットから選好モデルを訓練する。その後、この選好モデルを報酬信號として强化學習 (RL)を實施し、すなはち「AI フィードバックによる强化學習」(RLAIF) の手法を採用する。結果として、無害でありながら非囘避的な AI アシスタントを訓練することが可能となる。この AI は、有害なクエリに對しても、その理由を說明することで適切に對應することができる。敎師有り學習 (SL) 手法と强化學習 (RL)手法の雙方において、思考の連鎖 (CoT) (Chain-of-Thought) スタイルの推論を活用することで、AI の意思決定における人閒による評價性能と透明性を向上させることができる。これらの手法により、AI の行動をより精密に制禦することが可能となり、必要な人閒によるラベル附けの數を大幅に削減できる。
Jord Nguyen, Khiem Hoang, Carlo Leonardo Attubato, Felix Hofstätter “Probing and Steering Evaluation Awareness of Language Models” 2025/7/9
言語モデルは、テスト段階と本番運用段階を區別する能力――いわゆる「評價認識能力」を備へてゐる。この能力は、安全性と政策面において重大な意味を持ち、AIガバナンスの枠組みや業界の自主的な取り組みにおいて中核をなす評價の信賴性を損なふ可能性がある。本論文では、Llama-3.3-70B-Instructモデルにおける評價認識能力について詳細に檢討する。實驗の結果、線形プローブを用ゐることで現實世界の評價用プロンプトと本番運用用プロンプトを明確に分離できることが明らかとなり、これは現行モデルがこの區別を內部的に認識してゐることを示唆してゐる。さらに、現在實施されてゐる安全性評價がプローブによって正しく分類されることから、これらの評價がモデルにとって人工的あるいは非眞正なものと認識されてゐることが示唆される。本硏究の成果は、信賴性の高い評價手法の確保と、欺瞞的な能力の理解の重要性を浮き彫りにするものである。より廣範には、この硏究は、特に評價認識能力と欺瞞能力においてより高度な能力を持つ將來のモデルに對して、ブラックボックス型手法による安全性監査を支援するために、モデルの內部構造をどのやうに活用できるかを示す好例となってゐる。
過學習の一形態だ
AG-UI
AG-UI Overview - Agent User Interaction Protocol
ag-ui-protocol/ag-ui: AG-UI: the Agent-User Interaction Protocol. Bring Agents into Frontend Applications.